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摘要 : [ 目的 /意义 ] 对 数字 人 文 领 域 的 知识 图 谱 研 究 进行 系统 性 回顾 ， 则 在 提供 未 来 可 能 的 
研究 方向 和 开放 的 研究 主题 。 [ 方法 /过程 ] 以 国内 外 会 议 、 期 刊 发 表 的 相关 文献 为 研究 对 象 ， 
采用 综合 归纳 法 ， 系 统 梳理 数字 人 文 领域 知识 图 谱 的 理论 与 实践 发 展 。 阐 述 数 字 人 文 领域 知识 
图 谱 的 相关 概念 ， 并 根据 当前 的 研究 热点 ， 从 数据 资源 建设 、 关 键 构 建 技术 、 平 台 智 能 应 用 3 
个 方面 揭示 其 研究 动向 ， 并 对 未 来 研究 趋势 进 行 展望 。[ 结果 / 结论 ] 总 结 数字 人 文 知识 图 谱 
研究 的 未 来 发 展 趋势 ， 即 未 来 将 呈现 出 多 源 数 据 集成 、 多 模 态 知识 融合 、 多 学 科 交 叉 应 用 的 发 
展 趋势 。 

关键 词 : 数字 人 文 ”知识 图 谱 智慧 数据 数据 资源 建设 ”语义 挖掘 
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Q5 以 及 数字 资源 的 不 断 增加 ， 仅 赁 人文 计 算 难以 
完成 更 高 层次 的 学 术 发 现 。 因 此 ， 数 字 人 文 的 
概念 应 运 而 生 ， 它 是 在 计算 机 技术 、 网 络 技术 、 
多 媒体 技术 等 新 兴 技 术 支 撑 下 开展 人 文 研究 而 
形成 的 新 型 跨 学 科研 究 领 域 中 。 在 我 国 ， 如 何 
通过 数字 化 激发 创新 创造 活力 ， 推 动 文化 产业 


数字 人 文人 Digital Humanities, DH ) 起 源 于 
20 世纪 40 年 代 末 的 人 文 计算 。 人 文 计算 侧重 于 
对 计算 与 人 文学 科 之 间 的 交叉 领域 进行 研究 、 
学 习 与 创新 路 , 随 着 时 代 的 信息 化 程度 不 断 加 深 ， 


基金 项 目 : 本 文系 2020 年 国家 档案 局 科技 项 目 “ 基于 时 空 数据 的 智慧 城市 档案 知识 图 谱 构 建 及 应 用 服务 体系 
研究 ”( 项 目 编号 : 2020-X-053) 、 湖 北 省 重点 研发 计划 项 目 “ 文 旅 科技 大 数据 关键 技术 研发 与 应 用 示范 ”( 项 
目 编号 : 2020BAB117) 和 南宁 市 科学 研究 与 技术 开发 计划 项 目 科技 重大 专项 “基于 GIS 和 BIM 技术 的 城建 
大 数据 平台 研究 ”( 项 目 编号 : 20193010) 研究 成 果 之 一 。 

作者 简介 : 朱 丽 雅 ， 硕 士 研 究 生 ; KE, MEARE, 洪亮 ,教授 ， 博 士 ， 博 士 生 导师 ， 通 信 作 者 ，E-mail : 

hong@whu.edu.cn; F 223£, BALJEN, 兰 度 ， 高 级 工程 师 。 


收 稿 日 期 : 2021-09-30 发 表 日 期 : 2022-02-23 本 文责 任 编辑 : 刘 远 颖 


87 


202310.00686v1 


chinaXiv 


知识 管理 论坛 
2022 年 第 1 期 (总 第 37 期 ) 


PRACT 


www.hmf.ac.cn 


迈 向 高 质量 发 展 ， 从 而 更 好 地 满足 人 民 和 群众 日 
益 增 长 的 精神 文化 需求 ， 成 为 一 项 重要 课题 。 
例如 ,2019 年 中 华人 民 共 和 国文 化 部 发 布 的 《 文 
化 部 “十 三 五 ”时 期 文化 产业 发 展 规划 》 中 强 
调 要 促进 数字 文化 产业 创新 发 展 ， 包括 推进 “ 文 
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慧 化 资源 。 从 以 往 只 具有 检索 功能 的 数据 库 形 
式 逐 渐 转 变 为 具有 推理 分 析 功 能 的 智能 平台 形 
式 ， 充 分 利用 新 的 信息 技术 来 深入 挖 气 知 识 。 
其 次 ,数字 人 文 领域 知识 图 谱 立 足 于 学 者 
导向 的 研究 需求 , 其 目的 和 通用 知识 图 谱 不 同 ， 


化 +” 和 “互联 网 +” 战 略 ， 促 进 互 联网 等 高 新 
科技 在 文化 产业 各 环节 的 应 用 。2020 年 ， 国 家 
“十 四 五 ”规划 提出 实施 文化 产业 数字 化 战略 。 
随 着 “ 数 智 时 代 ” 的 到 来 和 数字 人 文 的 兴起 ， 
数字 人 文 研 究 中 的 数据 基础 设施 和 数字 学 术 环 
境 已 经 成 为 数字 人 文 资源 开发 利用 的 重要 方面 。 

在 研究 数字 人 文 的 过 程 中 ,结合 知识 图 谱 
能 为 其 带 来 新 的 方法 与 新 的 思考 。 一 方面 ， 知 
识 图 谱 作 为 人 工 智 能 时 代 一 种 先进 的 知识 组 织 
方式 ， 能 够 为 数字 人 文 研 究 提供 优良 的 技术 文 
持 ， 去 发 据 那 些 以 往 在 文本 资源 中 看 不 见 的 模 
式 和 联系 。 男 一 方面 ， 知 识 图 谱 作为 智慧 数据 
的 表现 形式 ， 为 数字 资源 的 挖掘 分 析 提 供 了 基 
础 ， 进 行 大 规模 的 知识 图 谱 构 建 能 够 提高 建设 
智慧 化 数字 人 文系 统 的 效率 ， 并 为 该 领域 研究 
者 以 及 其 他 想 要 了 解 人 文学 科 的 人 员 提 供 专业 
的 、 智 能 的 知识 服务 。 然 而 ， 数 字 人 文 领 域 知 
识 图 谱 的 研究 成 果 虽 然 多 ,但 比较 分 散 ， 缺 少 
一 个 系统 的 体系 。 因 此 ， 本 文 将 深入 开展 数字 
人 文 领域 知识 图 谱 研 究 , 并 整合 相关 研究 成 果 。 


@ 数 字 人 文 领域 知识 图 谱 概 念 辨析 
与 文献 收集 
2. 概念 辨析 
在 图 书馆 和 数字 人 文 领域 ， 知 识 图 谱 的 概 
念 深 深 植 根 于 知识 组 织 系统 中。 数字 人 文 领域 
识 图 谱 旨 在 利用 知识 图 谱 这 一 先进 的 知识 组 
组 方式 ， 对 原本 分 散 的 、 异 构 的 海量 数据 进行 
交合 ， 从 而 满足 领域 学 者 的 研究 需求 ， 并 实现 
智能 知识 服务 。 与 通用 知识 图 谱 相 比 ， 数 字 人 
文 领域 的 知识 图 谱 具 有 以 下 特点 : 
首先 ， 在 数据 方面 ， 人 研究 者 已 经 认识 到 了 
传统 资源 利用 与 开发 模式 的 局 限 性 ， 开 始 有 意 
识 地 将 数字 人 文 领域 普通 的 数字 化 资源 转 为 智 
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不 是 要 求 涵盖 各 范围 广泛 的 知识 以 实现 全 方面 
的 知识 检索 ， 而 是 在 实现 大 范围 的 知识 覆盖 的 
基础 上 ， 构 建 更 为 全 面 的 知识 体系 ， 来 搭建 支 
持 智慧 化 的 领域 知识 服务 平台 。 

最 后 ， 数 字 人 文 知识 图 谱 所 涉及 的 领域 较 
为 广泛 ， 在 构建 知识 图 谱 的 过 程 中 ， 需 要 充分 
考虑 不 同 研 究 领 域 的 影响 。 例 如 ， 周 莉 娜 等 外 
在 构建 唐诗 知识 图 谱 时 提出 ， 由 于 唐诗 知识 涉 
及 到 诗 学 、 文 献 学 、 史 学 这 三 大 领域 ,通过 分 
析 三 大 领域 现存 的 未 决 问题 ， 就 能 够 较为 全 面 
地 发 掘 出 唐诗 知识 图 谱 的 构建 需求 。 因 此 ， 数 
字 人 文 领域 知识 图 谱 与 通用 知识 图 谱 在 构建 方 
法 上 也 存在 诸多 不 同 ， 尤 其 体现 在 本 体 构建 、 
知识 抽取 、 知 识 推 理 等 构建 技术 中 。 

2.2 文献 收集 
2.2.1 文献 来 源 

(1) 检索 范围 。 本 文 的 研究 文献 主要 通 
过 国内 外 数据 库 获 取 。 考 虑 到 研究 的 新 颖 性 ， 
选取 了 2010 年 至 2021 年 的 文献 。 国 内 文献 来 
源 于 中 国 知 网 ， 选 择 图 书 情报 类 的 学 术 核 心 期 
刊 ， 如 《中 国 图 书馆 学 报 》《 情 报 学 报 》《 数 
据 分 析 与 知识 发 现 》 等 期 刊 ; 国外 文献 来 源 于 
WOS, Elsevier, EBSCO 及 Springer 等 数据 库 ， 
选择 Information Science & Library Science 领域 
的 学 术 核 心 期 刊 ， 如 MIS Quarterly, Journal of 
Information Technology, International Journal of 
Information Management 等 期 刊 。 

(2) 检索 关键 词 。 国 内 数据 库 以 “数字 人 
aC" "ABA ERE" 为 检索 词 , 国外 数据 库 以 “digital 
humanities” “knowledge graph” 为 检索 词 ， 分 
别 采 用 标题 、 主 题 途径 进行 检索 ， 并 对 检索 结 
果 进 行 盘 选 、 去 重 、 勘 误 ， 去 除了 与 主题 关联 
度 较 低 的 文献 。 考 虑 到 仅 采 用 以 上 两 个 关键 词 
进行 检索 具有 局 限 性 ， 无 法 深入 反映 知识 图 谱 
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在 数字 人 文 领 域 中 的 具体 研究 内 容 ， 又 选取 “ 智 
慧 数据 ”( smart data ) 、“ 本 体 ”( ontology ) 、“ 知 
识 抽 取 ” (knowledge extraction) 、“ 关 联 数据 ” 
(linked data) ”等 作为 检索 词 来 挖掘 知识 网 谱 
在 数字 人 文 研究 中 的 具体 应 用 ， 保 证 检索 结 
可 以 较为 全 面 地 覆盖 数字 人 文 领域 的 代表 性 研 
究 成 果 ， 并 再 次 对 检索 结果 进行 第 选 、 去 重 、 
勘误 。 最 终 得 到 国内 文献 131 篇 、 国 外 文献 187 
篇 作为 初始 样本 。 
2.2.2 人 研究 热点 简 述 

整体 而 言 ， 数 字 人 文 领域 知识 图 谱 的 研究 
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虽然 较 晚 ， 但 是 针对 我 国 的 文化 特色 开创 了 不 
少 针 对 性 研究 ， 如 陈涛 等 中 构建 的 SinoPedia ^E 
E, KH RDF 三 元 组 对 目前 公共 领域 的 百科 概 
念 术 语 赋予 唯一 的 URI 进行 资源 的 持久 化 ， 有 
助 于 中 文 知识 图 谱 和 中 文 领域 本 体 的 标准 化 和 
推广 应 用 。 

(3) 数字 人 文 知 识 图 谱 平 台 智 能 应 用 。 此 
类 研究 是 数字 人 文 领域 知识 图 谱 研 究 发 展 的 必 
然 路 径 ， 主 要 着 重 于 数字 人 文中 的 关联 数据 技 
术 运 用 , 以 支持 大 规模 、 可 重用 的 数字 人 文 研 究 ， 
如 R. Hoekstra 等 钻 介 绍 了 数字 人 文 数据 管理 项 


呈现 出 多 学 科 、 文 理 交 融 的 特点 , 涵盖 了 历史 学 、 
文献 学 、 计 算 机 科学 、 管 理学 、 图 书馆 学 等 多 
种 学 科 。 它 将 过 去 研究 中 容易 割裂 的 技术 与 文 
化 进行 了 有 机 融合 ， 利 用 其 他 学 科 丰 富 的 数据 
资源 与 成 熟 的 实践 体系 ， 为 数字 人 文 领域 知识 
图 谱 研 究 带 来 有 力 的 基础 支撑 ， 极 大 地 丰富 了 
该 领域 的 研究 内 容 ， 对 推进 数字 人 文智 慧 化 研 
究 体系 具有 重大 意义 。 研 究 的 主要 热点 集中 在 
以 下 3 个 方面 : 

C1) 数字 人 文 领域 数据 资源 建设 。 此 类 
研究 是 国内 外 数字 人 文 领域 知识 图 谱 的 研究 起 
点 ， 主 要 探索 与 数字 人 文 领域 相关 的 各 类 数据 
资源 建设 ， 包 括 古 籍 文献 、 图 像 、 视 频 、 音 频 
等 各 类 结构 化 、 半 结构 化 及 非 结 构 化 数据 源 。F. 
Kaplan"! 将 数字 人 文 的 大 数据 研究 作为 一 个 结构 
化 的 研究 领域 ， 提 出 了 三 个 同心 研究 领域 的 划 
分 。 在 其 基础 上 ， 国 内 外 学 者 就 数字 人 文 领域 
数据 资源 分 类 、 特 色 、 数 字 化 方法 等 问题 进行 
了 深入 研究 , 如 董 政 娥 等 外 针对 数字 人 文 特点 ， 
对 数字 人 文 文献 资源 进行 了 调查 。 数 据 资 源 建 
设 作 为 数字 人 文 知 识 图谱 构 建 的 基础 步骤， 能 
够 为 其 提供 数据 源 支 持 。 

(2) 数字 人 文 知识 图 谱 构建 技术 。 此 类 研 
究 是 数字 人 文 领域 知识 图 谱 研 究 中 的 重点 ， 利 
用 各 类 数字 人 文 领域 数据 源 ， 面 向 数字 人 文 领 
域 数据 的 特点 ， 研 究 本 体 构建 、 知 识 抽取 、 消 
皮 等 问题 ,解决 不 同 知 识 图 谱 的 融合 和 器 语言 
实体 的 对 齐 问题 。 在 这 类 文献 中 ， 国 内 的 起 步 


目的 生态 周期 ， 在 数字 人 文 领 域 使 用 关联 数据 
技术 能 使 研究 人 员 以 灵活 的 方式 发 布 和 使 用 数 
据 。 此 外 , 也 着 重 于 通过 对 数据 的 重新 组 织 构建 ， 
将 其 转化 为 能 够 支持 领域 研究 的 “智慧 数据 ”， 
并 形成 全 局 知识 网 络 ， 为 社会 公众 、 科 研 人 员 、 
科研 机 构 等 提供 开源 共享 的 智能 知识 服务 。 

根据 以 上 文献 收集 后 整理 出 的 研究 热点 ， 
下 文 将 从 数字 人 文 领域 数据 资源 建设 、 数 字 人 
文 知识 图 谱 构建 搁 术 、 数 字 人 文 知识 图 谱 平 台 
智能 应 用 三 个 方面 进行 详细 讨论 。 


全 数字 人 文 领域 数据 资源 建设 

数字 人 文 领域 资源 建设 需 经 过 3 个 阶段 ， 
如 图 1 所 示 。 

第 一 阶段 是 进行 数据 集 的 构建 ， 目 的 是 实 
现 资 料 的 电子 化 ， 并 以 数据 库 等 形式 储存 Us 
第 二 个 阶段 是 将 结构 化 数据 、 半 结构 化 数据 以 及 
非 结构 化 数据 转化 成 RDF 结构 化 数据 ， 实 现 语 
法 层面 的 统一 ; 最 后 一 步 则 是 通过 本 体 融 合 和 资 
源 关 联 来 实现 关联 不 同 数据 源 的 资源 ， 实 现 资源 
的 分 布 式 融合 ， 进 而 实现 语义 层面 的 统一 。 

3.1 实现 领域 资源 数字 化 

数据 集 的 构建 位 于 数字 人 文 应 用 流程 的 基 
fll fr Et, GLAMs (Galleries, Libraries, Archives 
and Museums， 艺 术 馆 、 图 书馆 、 档 案 馆 和 博物 
馆 ) 在 数据 积累 方面 有 较 大 的 优势 ， 因 此 他 们 
一 般 是 数据 集 构建 的 主体 机 构 ， 将 纸 质 材 料 信 
息 进 行 数字 化 并 对 其 进行 组 织 。 数 字 人 文 数据 
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主要 是 文本 形式 , 同时 还 有 一 些 多 源 数据 形式 ， 
例如 图 片 、 音 频 、 视 频 、3D 等 数据 。 针 对 不 同 


领域 资源 数字 化 
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的 数据 资源 形式 ， 也 存在 着 不 同 的 构建 技术 ， 
下 文 将 对 不 同 的 领域 资源 数字 化 过 程 进行 分 析 。 


文本 资料 
22 非 结构 化 数据 


图 片 


3D 数 据 


p o> RDF 结 构 
半 结 构 化 数据 化 数据 
视频 结构 化 数据 


实现 语法 层面 的 统一 实现 语义 层面 的 统一 


本 体 融 合 


路 


资源 关联 


1 数字 人 文 领域 资源 建设 过 程 


(1) 文本 资料 。 文 本 资料 包括 地 方 古典 
文本 资料 、 图 书 、 笔 迹 、 家 谱 资 料 等 ， 这 些 文 
本 资料 需 通过 图 像 技 术 记 录 和 保存 原始 文档 
的 外 观 结构 和 内 容 ， 这 一 过 程 主 要 利用 图 像 
感光 技术 (Charge-Coupled Device, CCD ) 、 
像 传 感 技术 (Complementary Metal Oxide 
Semiconductor, CMOS ) 等 技术 来 对 资源 进行 
采集 , 这 一 过 程 需要 与 图 像 光 学 字符 识别 ( ORC ) 
结合 使 用 ,使 图 像 转化 为 计算 机 可 识别 的 ASCIT 
人 码 ， 再 转化 为 文本 资源 ， 同 时 需要 机 器 学 习 来 
实现 识别 任务 。 例 如 M. Kestemont 等 中 着 重 研 
究 中 世纪 拉丁 手稿 ， 通 过 卷 积 神经 网 络 对 手稿 
进行 识别 , 并 对 自动 分 类 的 可 行 性 进行 了 阐释 。 

(2) 图 片 。 图片 包 括 地 图 、 夯 作 、 壁 画 等 ， 
其 电子 化 方法 与 文本 资料 类 似 ， 主 要 使 用 OCR 
与 机 器 学 习 技术 进行 扫描 与 识别 任务 。 如 S.A. 
Oliveira 等 中 着 眼 于 19 世纪 初 威 尼 托 地 区 的 拿 
破 仑 卡 德 斯 地 图 ， 提 出 了 第 一 个 可 以 自动 分 割 
和 解释 19 世纪 初 威 尼 托 地 区 的 拿破仑 卡 德 斯 地 
图 的 全 自动 系统 ， 该 系统 使 用 机 器 视觉 算法 来 
提取 出 每 个 碎片 的 几何 图 形 ， 并 进一步 对 手写 


及 编辑 等 最 新 的 技术 手段 对 信息 进行 数字 化 存 
储 或 重新 构建 三 维 数字 模型 ， 最 后 使 用 相关 软 
件 进行 数字 化 还 原 号 。 三 维 扫描 技术 ， 可 以 根 
据 需 求 ， 记 录 文 物 最 真实 、 最 全 面 的 形态 特征 。 
如 今 ，3D 扫描 技术 越 来 越 多 地 应 用 于 文物 保护 
领域 。 这 种 方法 使 文物 的 展示 和 检索 更 加 数字 
化 。 同 时 ， 该 技术 的 应 用 也 更 有 利于 文物 研究 、 
文物 共享 和 文物 传播 。 这 一 方面 国外 起 步 较 早 ， 
有 影响 力 的 项 目 多 ， 国 内 尽管 起 步 晚 ， 但 也 取 
得 了 不 少 有 效 的 成 果 。 比 较 著 名 的 项 目 是 斯 坦 
福 大 学 曾经 开展 的 “ 米 开 明基 罗 项 目 ”， 该 项 
目 针对 世界 著名 的 雕塑 进行 三 维 扫 描 ， 对 其 进 
行 数字 化 保护 。 

(4) 音 视频 。 音 视频 数据 包括 访谈 、 纪 录 
片 等 多 媒体 数据 。 对 音 视频 进行 数字 化 即 是 利 
用 技术 对 其 进行 扫描 、 翻 拍 、 转 录 ， 进 而 实现 
数字 化 。 近 年 来 ， 声 像 档案 抢救 性 保护 逐渐 成 
为 重点 研究 方向 之 一 ， 与 此 同时 ， 绪 合 数字 技 
术 也 逐渐 成 为 一 种 必然 趋势 "'。 要 使 音频 档案 
与 视频 档案 得 到 长 久保 存 并 被 更 多 人 利用 ， 数 
字 化 是 一 种 较为 可 行 的 方法 " 。 因 此 ， 在 音 视 


的 标签 进行 分 类 、 读 取 和 解释 。 
(3) 3D 数据 。3D AEA, eL. HE 
ESSE, 3D 数据 数字 化 是 利用 摄影 、 数 字 化 扫描 
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频数 字 化 的 过 程 中 ， 对 其 进行 修复 是 其 中 非常 
重要 的 一 个 环节 ， 例 如 内 蒙古 自治 区 档案 馆 通 
it COOL EDIT PRO2.1 与 ADOBE AUDITION 
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CC 等 修复 软件 对 音频 文件 进行 数字 化 修复 ， 首 
先 将 音量 标准 化 提高 , 其 次 进行 音量 降 品 处 理 ， 
最 后 手工 干预 残存 噪点 ; 至 于 视频 修复 ， 则 要 
坚持 “最 小 干预 ”的 修复 原则 ， 在 “ 听 清 楚 、 
看 清楚 ”的 基础 之 上 ， 最 大 化 保留 音 视频 档案 
的 原始 凭证 作用 "9。 

3.2 实现 资源 语法 层面 的 统一 

随 着 科技 发 展 ， 人 工 智 能 、 智 慧 数 据 等 不 
断 进入 人 们 的 视野 ， 各 行 各 业 对 其 研究 也 不 断 
INR, 正 推 动 着 数字 人 文 发 展 从 “互联 ”走向 “ 智 
联 ”。 人 文学 科 的 数据 资源 类 型 多 样 、 来 源 多 源 、 
数据 海量 、 环 境 异 构 ， 因 此 在 该 领域 进行 数据 
资源 建设 需要 实现 语法 和 语义 层面 的 统一 ， 由 
此 来 有 效 解决 存在 的 诸如 数据 异 构 、 实 体 消 歧 、 
关联 共享 等 问题 ， 实 现 数据 的 语义 增强 和 价值 
提升 。 

对 于 结构 化 数据 ， 通 常 采用 RDB2RDF 的 
方法 进行 转换 ， 如 使 用 D2R 工具 、R2RML 映 
射 语言 l S EXCEL fl CSV 文件 也 具有 结 
构 化 数据 的 特点 ， 可 以 使 用 OpenRefine 来 进行 
数据 转换 。 半 结构 化 数据 是 介 于 结构 化 数据 和 
非 结构 化 数据 之 间 的 一 种 数据 ， 可 以 被 看 成 是 
结构 化 数据 的 一 种 形式 ， 并 不 符合 关系 型 数据 
库 的 数据 模型 结构 ， 但 包含 相关 标记 ， 可 以 用 
来 分 隔 语义 元 素 以 及 对 记录 和 字段 进行 分 层 ， 
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不 同 数据 源 资 源 之 间 的 语义 关联 ， 通 常 通 
过 本 体 融 合 和 资源 关联 两 步 来 完成 : 

(1) 本 体 融 合 。 目 前 本 体 融 合 的 研究 主要 
集中 于 寻找 本 体 之 间 的 映射 ， 随 着 本 体 技术 的 
发 展 ， 通 过 本 体 概 念 、 实 例 及 属性 之 间 的 语义 
匹配 机 制 和 映射 方法 ， 实 现 本 体 最 小 元 素 之 间 
的 相似 对 应 关系 , 从 而 实现 本 体 的 最 终 融 合 "1。 
目前 国内 外 对 本 体 融 合 的 研究 越 来 越 多 ， 也 有 
许多 成 熟 的 本 体 融 合 系统 ， 如 PROMPT, GLUE 
4€. AnchorPROMPT!" 是 由 斯 坦 福 大 学 开发 的 
用 来 寻找 本 体 之 间 映 射 的 工具 ， 该 工具 首先 进 
行 概念 比较 ， 然 后 利用 本 体 结构 判断 可 能 相似 
的 本 体 成 分 ， 但 是 对 于 复杂 概念 和 关系 的 本 体 
映射 ，AchorPROMPT 则 无 法 处 理 。GLUEC 是 
基于 实例 的 本 体 映 射 生成 系统 之 一 ， 利 用 机 器 
学 习 技术 ， 根 据 分 类 本 体 寻 找 本 体 间 1: 1 的 映 
射 。M. Lamé 等 P" 提出 一 种 新 的 本 体 对 齐 框架 ， 
能 够 使 文化 遗产 数据 提供 者 生成 定义 良好 且 形 
式 化 良好 的 术语 。 

(2) 资源 关联 。 不 同 机 构 在 将 实体 数据 
进行 RDF 结构 化 的 过 程 中 ， 往 往 会 用 各 自 机 构 
的 域名 来 定义 资源 的 URL 地址， 这些 资 源 之 间 
需要 进行 关联 操作 。 可 以 使 用 LIMES SILK, 
LDIF 等 工具 和 框架 来 进行 不 同 资源 之 间 的 自动 
化 关联 ， 主 要 原理 是 通过 机 器 学 习 和 字符 相似 
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因此 它 也 被 称 为 自 描述 的 结构 。 我 们 可 以 使 用 
XML2RDF 或 JSON2RDF 等 工具 来 实现 非 结 构 
化 数据 向 RDF 结构 数据 的 转换 ， 这 一 过 程 被 称 
为 RDFizer 实现 。 非 结构 化 的 文本 数据 需要 结 
合 自 然 语 言 处 理 (NLP ) 和 命名 实体 识别 (NER ) 
技术 ， 抽 取出 结构 化 数据 ， 再 进行 RDF 转换 。 
而 对 于 图 像 和 音频 视频 文件 的 结构 提取 ， 主 要 
先 通过 目标 检测 识别 出 资源 实体 , 再 进行 转换 。 
3.3 实现 资源 语义 层面 的 统一 

结构 化 、 半 结构 化 和 非 结构 化 的 数据 资源 
统一 转化 成 RDF 结构 的 数据 后 ， 只 是 达成 了 语 
法 层面 的 统一 ， 为 实现 语义 层面 的 统一 ， 为 实 
现 资源 的 分 布 式 融 合 ， 还 需要 将 本 地 RDF 数据 
集 与 对 外 开放 的 关联 数据 资源 进行 关联 。 


度 的 一 些 算法 来 进行 资源 属性 值 的 对 比 。 


-d MN 


4.1 数字 人 文 领域 知识 图 谱 构 建 框 架 

关联 数据 和 广义 知识 图 谱 都 是 用 节点 和 边 
来 表示 实体 和 关系 ， 本 文 主 要 探讨 如 何 用 关联 
数据 来 解释 广义 知识 图 谱 中 的 技术 。 关 联 数据 
表示 的 语义 知识 图 谱 中 的 实体 必须 以 RDF 命 
名 ,不 同 图 谱 之 间 有 具有 标准 的 SPQRQL 查询 语 
， 因 此 可 以 解决 知识 表示 和 网 络 服务 问题 。 
数字 人 文 领域 知识 图 谱 与 通用 知识 图 谱 的 构建 
方法 存在 诸多 不 同 ， 尤 其 体现 在 本 体 构建 、 知 
识 抽 取 、 知 识 融 合 等 构建 技术 中 。 本 节 将 知识 


hill 
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图 谱 的 构建 技术 和 数字 人 文 领域 的 知识 特点 相 
结合 ， 在 通用 知识 图 谱 的 结构 框架 基础 上 ， 对 


知识 不 完备 性 
知识 不 确定 性 


自然 语言 处 理 


实体 识别 
机 器 学 习 


基于 规则 
的 知识 抽取 


结构 化 数 
据 
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数字 人 文 领域 的 知识 图 谱 构 建 框架 进行 归纳 ， 
如 图 2 Brzn : 


基于 逻辑 规则 的 知识 推理 
基于 府 入 表示 的 知识 推理 
基于 神经 网 络 的 知识 推理 


实体 对 齐 


语义 增强 
实体 消 歧 


价值 提升 


基于 统计 学 习 
的 知识 抽取 


半 结 构 化 
数据 


非 结构 化 
数据 


2 数字 人 文 领域 知识 图 谱 构建 框架 


数字 人 文 领域 知识 图 谱 构建 框架 主要 包括 
多 学 科 支 撑 基 础 、 数 字 人 文 领域 数据 源 、 数 字 
人 文 领域 知识 图 谱 构建 。 在 多 学 科 全 方位 的 基 
础 支撑 下 ， 基 于 海量 、 多 元 、 蜡 构 的 数字 人 文 
领域 数据 源 进行 本 体 构建 、 知 识 抽取 、 知 识 融 合 、 
知识 推理 ， 从 而 提供 数字 人 文 领域 智慧 数据 产 
出 。 前 文 我 们 已 经 就 数据 资源 的 构建 问题 进行 
了 分 析 ， 下 文 我 们 将 针对 数字 人 文 领域 知识 图 
谱 构 建 过 程 中 的 关键 技术 进行 深入 分 析 。 
4.2 关键 构建 技术 分 析 
4.2.1 本 体 构建 

本 体 根 据 其 描述 的 目标 范围 ， 可 分 为 通用 
本 体 和 领域 本 体 。 前 者 旨 在 建立 可 广泛 应 用 于 
不 同 场景 的 本 体 知 识 ， 是 对 通用 类 知识 的 一 种 
规范 描述 ; 后 者 则 是 对 具体 领域 建立 相对 应 的 
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知识 规范 描述 中 。 

目前 主流 的 本 体 构 建 方法 分 为 人 工 构建 和 
基于 机 器 学 习 的 自动 化 或 半自动 化 构建 两 种 。 
前 者 依靠 领域 专家 的 知识 及 经 验 ， 因 此 成 本 高 
且 效 率 低下 ， 与 此 同时 ， 不 同 专家 对 同一 事物 
的 理解 也 不 尽 相 同 ， 因 此 人 工 构建 的 可 拓展 性 
较 差 。 后 者 是 指 在 已 建立 的 本 体 语义 框架 下 ， 
结合 自然 语言 处 理 、 机 器 学 习 等 技术 从 语 料 中 
自动 抽取 相关 术语 及 属性 关系 ， 目 前 这 种 构建 
方法 已 经 逐渐 成 为 主流 。 

国外 在 领域 本 体 的 构建 方法 上 的 系统 分 析 
研究 已 经 较为 成 熟 ， 通 过 文献 分 析 可 知 ， 国 外 
典型 的 本 体 构 建 方法 有 8 种 ， 分 别 为 : IDEFS 
ik. BERE. TOVE 1X, METHONTOLOGY 法 、 
KACTUS 工程 法 、SENSUS 法 、 七 步 法 以 及 循 
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环 获得 法 中。 相 较 之 下 ， 国 内 起 步 较 晚 ， 技 术 
相对 落后 ， 因 此 需要 借鉴 国外 的 构建 方法 ， 同 
时 结合 新 的 内 容 ， 形 成 新 的 观点 方法 。 目 前 国 
内 比较 有 代表 性 的 本 体 构 建 方法 主要 有 两 种 ， 
分 别 是 基于 氢 词 表 的 构建 方法 和 基于 本 体 论 工 
程 法 的 半自动 化 与 自动 化 构建 方法 中。 

近年 来 ,一 些 学 者 构建 了 一 些 大 型 通用 本 
体 ， 如 DBPedia Ontology, YAGO 等 。 自 然 科 
学 领域 中 大 型 实用 化 的 领域 本 体 发 展 迅 速 ， 因 
为 其 概念 间 的 关系 比较 明确 。 目 前 比较 有 影响 
力 的 领域 本 体 有 GeoNames Ontology, The Drug 
Ontology、UMLS SemNet、Gene Ontology 及 
SNOMED 等 。 与 自然 科学 领域 不 同 ， 在 顶层 
语义 框架 难以 界定 、 概 念 关系 较为 灵活 的 人 文 
社会 科学 领域 中 ， 大 规模 的 实用 化 本 体 则 较为 
少见 站。 部 分 学 者 尝试 开展 对 历史 哲学 等 相关 
领域 的 本 体 构建 研究 ， 如 国史 本 体 、 二 十 四 史 
FE, HERRE, 邓 君 等 所 针对 档案 领 
域 构建 了 口述 历史 档案 资源 领域 本 体 模型 ， 有 
助 于 档案 领域 学 者 展开 深层 次 研究 ; 与 此 同时 ， 
在 戏剧 、 民 俗 等 领域 , 一些 学 者 利用 元 数据 、 
本 体 技术 等 进行 信息 资源 描述 和 组 织 1。 

在 语义 环境 下 ， 领 域 本 体 的 应 用 已 成 为 一 
种 必然 , 虽然 国内 目前 的 构建 方法 还 不 够 完善 ， 
但 自动 化 及 半自动 化 的 构建 方法 必 将 是 未 来 的 
发 展 趋势 。 领 域 本 体 构建 的 进一步 优化 将 着 眼 
于 以 下 几 个 方面 : 建立 完善 的 评价 机 制 ， 提 高 
本 体 的 重用 性 以 及 注重 本 体 的 共享 性 。 同 时 ， 
构建 数字 人 文学 科 领 域 的 大 规模 的 实用 化 本 体 
也 将 成 为 日 后 学 者 研究 的 重要 方向 之 一 。 
4.2.2 知识 抽取 

随 着 自然 语言 处 理 技术 的 不 断 发 展 ， 数 字 
人 文 领域 内 知识 抽取 的 方法 已 经 趋 癌 于 成 熟 ， 
主要 可 以 分 为 两 个 角度 : 基于 规则 的 方法 和 基 
于 统计 学 习 的 方法 。 

基于 规则 进行 知识 抽取 的 核心 要 点 ， 就 是 
关系 规则 的 定义 和 规则 两 边 的 实体 抽取 ， 规 则 
的 精确 度 直接 影响 着 所 抽取 知识 的 质量 。 在 数 
字 人 文 领域 ， 基 于 规则 的 方法 需要 考虑 词语 之 
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间 的 搭配 关系 和 上 下 文 语 境 。 该 方法 具有 准确 
率 高 、 构 建 方法 简单 的 优点 。 例如, XU ERA PH 
提出 了 一 种 基于 规则 的 古 汉 语句 型 统计 方法 ， 
该 方法 在 标注 高 频 字 后 ， 便 能 依据 设 定 的 约束 
规则 对 未 标注 字 词 进行 标注 并 统计 名 型 ， 从 而 
简化 古 汉语 研究 过 程 中 的 人 工 统计 工作 。 该 统 
计 方 法 在 约束 规则 设置 合理 的 情况 下 ， 对 名 型 
统计 的 正确 率 能 够 高 于 95%。 但 是 ， 该 方法 也 
同时 具有 诸多 局 限 性 。 尤 其 是 对 于 数字 人 文 领 
域内 的 文本 ， 规 则 的 针对 性 比较 强 ， 也 就 代表 
着 其 泛 化 能 力 较 弱 。 例 如 ， 谢 明 鸿 等 UU 提出 了 
通过 固定 句 式 搭配 规则 来 识别 人 物 关 系 ， 但 由 
于 中 文 文本 的 表达 方式 十 分 多 样 ， 会 出 现 预测 
结果 和 实际 不 一 致 的 情况 。 如 果 需 要 获得 更 好 
的 抽取 效果 ， 就 要 重新 制定 新 的 规则 。 因 此 ， 
数字 人 文 领域 的 研究 者 更 倾向 于 采用 基于 统计 
机 器 学 习 的 方法 。 

基于 统计 机 器 学 习 的 方法 在 数字 人 文 领域 
得 到 了 越 来 越 广泛 的 应 用 ， 相 比 于 基于 规则 的 
方法 ， 基 于 统计 学 习 的 方法 不 需要 构建 规则 ， 
一 般 都 是 自动 地 从 训练 语 料 中 学 习 参 数 。 例如， 
L. L. Liu 等 中 采用 基于 条 件 随 机 场 的 方法 对 用 
于 历史 研究 的 文学 汉语 命名 实体 的 算法 识别 进 
行 了 研究 。 该 方法 在 测试 中 的 表现 良好 ， 从 《地 
方志 》 中 抽取 出 了 大 量 人 名 和 地 名 ， 用 于 丰富 
中 国 传记 数据 库 (CBDB ) 。 秦 贺 然 等 PA 利用 
TextRank 模型 对 古 汉 语文 本 进行 关键 词 抽取 。 
通过 实验 ， 利 用 TextRank 模型 抽取 了 《春秋 经 
传 》 中 的 关键 词 ， 准 确 度 能 达到 84%， 这 些 关 
键 词 能 够 让 数字 人 文 领 域 的 学 者 快速 地 了 解 至 
春秋 时 期 的 历史 事件 和 春秋 的 时 代 面 貌 。 JH., 
该 模型 的 应 用 空间 也 十 分 广泛 ， 不 但 能 用 于 古 
汉语 文本 ， 而 且 也 能 应 用 于 现代 汉语 ， 例 如 构 
建 自动 摘要 系统 。 

综合 来 看 ， 为 了 获取 更 丰富 的 数据 以 支持 
数字 人 文 领域 内 知识 图 谱 的 构建 ， 可 以 在 抽取 
之 前 进行 数据 预 处 理 ， 减 少 抽取 时 间 ， 提 高 准 
确 率 。 也 可 以 将 基于 规则 和 基于 统计 的 方法 相 
结合 ， 由 于 数字 人 文 领域 的 实体 和 关系 具有 一 
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定 的 特征 ， 可 以 通过 人 工 少 量 标注 之 后 ， 自 动 
生成 规则 ， 同 样 也 有 利于 提高 领域 内 知识 抽取 
的 精度 和 效率 。 
4.2.3 知识 融合 

传统 的 知识 融合 问题 主要 涉及 三 方面 ， 分 
别 为 知识 融合 框架 、 知 识 融合 算法 以 及 知识 融 
合 应 用 。 知 识 融合 算法 可 分 为 两 类 ， 分 别 是 基 
于 信息 融合 技术 的 知识 融合 算法 和 基于 融合 规 
则 的 知识 融合 算法 ， 其 中 ， 大 部 分 知识 融合 框 
架 都 是 基于 本 体 来 构建 的 中 。 知 识 融 合算 法 基 
于 信息 融合 技术 和 基于 规则 的 知识 融合 算法 。 
针对 前 者 ， 很 多 研究 都 是 借鉴 信息 融合 算法 , 将 
其 移植 到 知识 融合 中 , 构造 针对 知识 融合 的 全 新 
算法 。 基 于 Bayes 方法 、D-S 理论 、 收 群 优 化 算 
法 的 3 种 知识 融合 方法 是 融合 决策 处 理 的 流行 
方法 。 周 芳 等 9 在 知识 管理 领域 中 ,通过 融合 
处 理 , 提高 了 结果 可 信和 度 ， 并 提升 实现 系统 任务 
目标 的 能 力 。 后 者 则 是 通过 找寻 信息 之 间 的 关 
联 ， 用 规则 来 进行 知识 表示 。 

而 在 数字 人 文 领域 ,针对 其 特点 ， 知 识 融 
合 主要 用 于 在 不 同 来 源 实体 间 建 立 关联 关系 ， 
将 从 多 个 分 布 式 异 构 信息 来 源 中 发 现 的 数据 进 
行 整合 ， 同 时 进行 识别 和 判断 ， 消 除 可 能 存在 
的 歧义 、 数 据 宛 余 和 不 确定 性 等 问题 ， 最 终 形 
成 新 的 知识 中 。 知 识 融 合 可 以 有 效 解 决 在 数字 
人 文 领域 所 存在 的 数据 异 构 、 实 体 消 歧 、 关 联 
共享 等 问题 , 实现 数据 的 语义 增强 和 价值 提升 。 
如 陈涛 等 时 在 构建 CBDBLD ( CBDB 关联 数 
据 平 台 ) 时 ， 将 转换 的 RDF 数据 与 上 海 图 书馆 
人 名 规范 库 、VIAF、DBPedia 等 数据 集 进行 关 
联 ， 采 用 SILK 或 者 LIMES 框架 进行 关联 ; F. 
Frontini 等 9 提出 了 一 种 算法 ,来 自动 消除 法 
国文 学 批评 语料库 中 所 被 提 及 的 歧义 ， 其 成 功 
地 将 通用 知识 库 (如 DBpedia ) 与 特定 领域 的 知 
识 库 结合 在 一 起 。 
4.2.4 知识 推理 

知识 推理 是 针对 知识 图 谱 中 已 有 事实 或 关 
系 的 不 完备 性 ， 挖 掘 或 推断 出 未 知 或 隐 仿 的 语 
义 关系 ,一 般 而 言 , 知识 推理 的 对 象 可 以 为 实体 、 
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关系 和 知识 图 谱 的 结构 等 。 目 前 主要 有 基于 逻 
辑 规 则 的 知识 推理 、 基 于 众人 表示 的 知识 推理 
以 及 基于 神经 网 络 的 知识 推理 三 类 方法 。 作 为 
知识 图 谱 的 核心 功能 之 一 ， 知 识 推理 为 解决 数 
字 人 文 历史 性 所 带 来 的 知识 的 不 完备 和 不 确定 
提供 了 思路 ,但 在 当前 的 数字 人 文 项 目 中 还 少 
有 成 熟 应 用 。 

基于 路 径 规则 的 知识 推理 通过 随机 采样 提 
取 到 的 关系 路 径 特征 来 提高 计算 效率 ,但 是 降 
低 了 知识 图 谱 中 信息 的 利用 率 ; 同时 利用 监督 
学 习 方 法 建立 的 关系 推力 模型 很 大 程度 上 会 受 
到 训练 数据 的 影响 。 对 此 ， 刘 峰 等 外 提出 双向 
语义 假设 ,对 全 局 关系 进行 推理 ,结合 局 部 模 
块 进行 加 权 合并 ,最终 得 到 完整 的 逻辑 规则 推 
理 算法 。 周 莉 娜 站 提出 了 面向 本 体 构 建 的 领域 
知识 推理 框架 ， 通过 TPO4DK 模型 ， 构 造形 式 
化 的 推理 规则 ， 对 唐 代 诗 人 之 间 以 及 诗歌 一 诗 
人 本 体 中 的 诗人 流派 属性 、 诗 歌 题材 与 主题 属 
性 进行 知识 推理 ， 实 现 对 唐诗 文献 学 的 版 本 证 
伪 的 应 用 。 陆 泉 等 7 提出 一 种 基于 OWL 语言 
的 模糊 本 体 表现 模型 ， 通 过 SWRL 语言 表示 精 
确 规则 和 模糊 规则 ， 构 建 面向 知识 发 现 的 推理 
模型 。 该 模型 可 以 同时 描述 精确 知识 和 模糊 知 
识 ， 简 化 了 对 模糊 知识 的 表示 和 处 理 ; 同时 ， 
数字 人 文 资源 所 蕴含 的 多 源 异 构 数据 ， 特 别 是 
图 像 数 据 资 源 之 间 的 语义 关系 和 概念 层次 结构 
也 推动 领域 内 的 知识 推理 ， 如 周知 等 外 参考 
Eakins 图 像 语义 层次 模型 和 王晓光 等 人 提出 的 
数字 图 像 语义 描述 层次 模型 四， 对 图 像 资源 的 
语义 进行 了 多 层 描 述 ， 实 现实 体 之 间 、 概 念 之 
间 的 深度 关联 ， 满 足 知 识 推 理 的 需要 。 

基于 般 入 表示 的 知识 推理 技术 优势 同样 明 
显 。 通 过 将 图 结构 中 隐 含 的 关联 信息 映射 到 欧 
氏 空 间 ， 使 得 原本 难以 发 现 的 关联 关系 变 得 显 
而 易 见 。 因 此 ， 基 于 藤 入 表示 的 推理 是 知识 图 
谱 推 理 技 术 的 重要 组 成 部 分 。 基 于 神经 网 络 的 
知识 图 谱 推 理 ， 充 分 利用 了 神经 网 络 对 非 线 性 
复杂 关系 的 建 模 能 力 ， 能 够 深入 学 习 图 谱 结 构 
特征 和 语义 特征 ， 实 现 对 图 谱 缺 失 关系 的 有 效 
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杂乱 的 ， 并 不 利于 领域 内 学 者 的 研究 。 随 着 数 


络 方法 主要 包括 CNN 方法 、RNN 方法 、 图 神 


字 人 文 领域 知识 图 谱 规模 的 逐渐 扩大 ， 传 统 的 


经 网 络 ( Graph Neural Networks, GNN ) 方法 、 
DRL PRSE 


Q 数字 人 文 领域 知识 图 谱 平 台 智 能 
应 用 


5.1 相关 平台 项 目 概述 

在 信息 技术 飞速 发 展 的 背景 下 , 信息 获取 、 
存储 和 传播 的 方式 都 产生 了 巨大 变革 ， 数 据 成 
为 数字 人 文 研究 的 基础 与 核心 之 一 ， 因 此 ， 数 
字 人 文学 者 对 于 领域 内 研究 资料 的 处 理 方式 也 
产生 了 翻天 覆 地 的 变化 。 在 传统 的 人 文 研 究 中 ， 
学 者 往往 注重 数据 的 收集 与 整理 。 但 由 于 数字 
化 技术 的 欠缺 以 及 原始 资料 本 号 的 质量 问题 ， 
学 者 整理 出 来 的 数据 经 常 是 不 完整 、 碎 片 化 的 。 
在 数字 化 技术 得 到 深入 发 展 之 后 ， 人 文 领域 的 
数据 昌 有 了 较为 快捷 与 全 面 的 收集 ， 但 仍然 是 


关系 型 数据 库 无 法 有 效 管 理 其 中 的 数据 。 该 领 
域 学 者 的 研究 往往 需要 多 个 数据 集 的 交叉 查询 ， 
例如 图 人像、 文字 、 音 频 等 数据 之 间 都 存在 一 定 
的 关联 , 发 据 这 些 联系 有 助 于 人 文 研 究 的 推进 。 
因此 ， 目 前 的 研究 一 般 采 取 关 联 数据 技术 〈 即 
语义 知识 图 谱 ) 来 实现 数字 人 文 领域 的 数据 管 
理 。 陈 涛 等 “将 关联 数据 技术 与 广义 知识 图 谱 
进行 了 对 比 后 指出 ， 关 联 数据 侧重 于 知识 的 发 
布 与 链接 , 与 注重 “挖掘 ”的 广义 知识 图 谱 不 同 ， 
关联 数据 技术 更 侧重 于 “推理 ”， 即 展示 资源 
之 间 的 关联 关系 。 利 用 关联 数据 技术 能 够 支持 
大 规模 、 可 重用 的 数字 人 文 研究 ”“"， 通 过 对 数 
据 的 重新 组 织 构建 ， 将 其 转化 为 能 够 支持 领域 
研究 的 “智慧 数据 ”， 并 形成 全 局 知识 网 络 。 
表 1 列举 出 了 国内 外 数字 人 文 领域 平台 建设 的 
几 个 典型 代表 。 


T 


表 1 数字 人 文 关联 数据 平台 实践 


ids , 
TA 平台 名 称 发 起 机 构 主要 任务 
EH Lb 1 T El LP rn 
Md 2 展现 了 人 物 之 间 的 亲属 及 社会 关系 ， 形 成 特有 的 社会 关 
RE 系 网 络 ， 实 现 人 物 之 间 隐 性 关系 的 挖 可 与 旦 现 
历史 weee CABIN, HERE MEEA AI A FR, I, ER MA, UA 
EE 技术 情报 研究 所 各 方面 私人 档案 ,是 研究 中 国 近代 更 的 第 一 手 史料 宝库 
欧洲 数字 图 书馆 FA 整合 欧洲 具有 代表 性 的 文化 遗产 资源 ， 提 供 一 站 式 浏览 
Europeana RE 与 检索 服务 ， 实 现 欧洲 数字 文化 资源 传播 与 共享 
中 国家 谱 知 识 服务 mr 基于 大 量 数据 并 结合 时 间 、 空 间 ， 对 姓氏 、 人 物 及 人 物 
平台 间 的 相互 关系 进行 全 景 式 的 可 视 化 展示 和 统计 分 析 


瑞士 洛桑 联邦 理工 


威尼斯 时 光 机 Ta 
za E AGES 
ee ees ADCCHEU RO 


艺术 Getty 数字 博物 馆 美国 盖 带 艺术 中 心 


a 
中 国 传统 建筑 数字 ” 范 德 保 大 学 数字 人 文中 
研究 工具 项 目 心 


中 国 数字 方志 库 北京 市 文 津 书店 


威尔士 报纸 在 线 ”威尔士 亚 伯 国 家 图 书馆 


将 海量 的 历史 档案 进行 数字 化 、 转 录 、 建 立 索 引 和 关联 
为 敦 烛 壁画 数字 资源 的 深度 语义 标注 、 语 义 检索 、 知 识 
组 织 、 信 息 关 联 与 共享 等 提供 一 套 受 控 词 表 
发 布 文物 数字 化 建设 的 描述 元 数据 标准 和 著录 规范 , 各 
种 数据 值 标准 和 数据 交换 标准 
开发 由 开放 数据 库 网 站 、 建 筑 群 、 个 体 结构 和 结构 元 素 
四 个 相互 关联 部 分 组 成 的 数字 研究 工具 
根据 现 有 行政 区 划 整 体 排列 ， 涵 盖 宋 、 元 、 明 、 清 及 民 
国 时 期 的 刻本 、 抄 本 、 稿 本 等 各 种 版 本 的 方志 

将 报纸 档案 数字 化 ， 目 前 包含 大 约 420 000 份 来 自 威 尔 
士 和 与 威尔士 相 关 的 数字 化 报纸 


202310.00686v1 


chinaXiv 


知识 管理 论坛 
2022 年 第 1 期 (总 第 37 期 ) 


Farc 

从 中 可 以 看 出 ， 数 字 人 文 关联 数据 平台 所 
横 跨 的 领域 十 分 丰富 ， 主 要 有 历史 学 、 档 案 学 、 
艺术 、 文 学 等 。 其 中 ， 历 史学 是 数字 人 文平 台 
实践 最 多 的 领域 之 一 ， 而 其 他 相关 领域 也 与 历 
史学 有 着 千 丝 万 缕 的 联系 ， 能 够 体现 出 当今 世 
界 各 国 对 于 历史 文化 资源 保存 与 利用 的 重视 程 
度 。 

5.2 平台 特点 分 析 
5.2.1 跨 界 合作 突出 

国内 外 先进 的 数字 人 文 关联 数据 平台 一 个 
突出 的 特点 就 是 跨 界 合作 ， 这 是 数字 人 文 的 跨 
学 科 属 性 所 要 求 的 。 合 作 方 式 主 要 可 以 分 为 以 
下 两 种 : 

一 方面 是 国内 外 机 构 的 广泛 合作 。S. 
Wong" 指出， 数字 人 文学 科 的 合作 性 是 该 领 
域 的 核心 价值 之 一 ， 采 用 合作 的 方法 可 以 利用 
各 种 机 构 的 优势 和 专业 知识 ， 从 而 产生 深远 影 
响 。 比 如 欧洲 数字 图 书馆 Europeana， 有 超过 
15 个 国家 的 200 多 个 文化 机 构 为 该 数字 图 书馆 
的 开放 数据 集 提供 了 贡献 ， 包 括 伦敦 的 大 英 图 
书馆 、 阿 姆 斯 特 丹 的 里 杰克 斯 博物 馆 和 巴黎 的 
卢 浮 宣 等 著名 机 构 以 及 欧洲 其 他 地 方 较 小 的 文 
化 遗产 组 织 和 图 书馆 外。 此外， 由 北京 大 学 中 
国 古 代 史 研究 中 心 与 哈佛 大 学 费 正清 东亚 研究 
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管理 和 服务 ， 亚 伯 拉 罕 : 林 肯 博 物 馆 提供 相关 历 
史 资 源 ， 形 成 人 才 资 源 与 历史 资源 的 相互 支撑 
5U, 学术 机 构图 书馆 、 档 案 馆 、 博 物 馆 以 及 企业 、 
基金 会 等 之 间 建 立 广 泛 的 联系 ， 再 加 上 人 文 、 
社 科 、 理 工 等 多 学 科 参 与 ， 有 利于 资源 的 整合 
与 创新 利用 。 
5.2.2 实践 导向 性 强 

首先 ， 较 多 数字 人 文 关 联 数据 平台 为 包括 
人 文学 科 在 内 的 一 系列 学 科 提供 服务 ， 例 如 提 
供 数字 化 成 像 、 数 字 保 存 、 元 数据 创建 、 数 据 
策 展 与 管理 、GIS 和 数字 映射 、 数 字 出 版 等 多 
种 数字 学 术 功 能 。 例 如 ， 由 德国 的 柏林 洪 堡 大 
学 图 书馆 信息 学 院 、 曼 海 姆 大 学 、 开 放 知 识 基 
金 会 等 多 个 机 构 合 作 研 发 的 欧洲 数字 手稿 项 目 ， 
该 项 目 构建 了 DM2E 数据 集 ， 提 供 元 数据 和 链 
接 以 及 展示 、 人 处 理 、 整 合 数据 的 相关 工具 ， 以 
便 数字 人 文 研 究 者 和 想 要 了 解 欧洲 历史 文化 的 
群众 直接 访问 欧洲 各 地 各 种 文化 遗产 机 构 的 数 
字 化 内 容 中 。 这 也 体现 了 数字 人 文 关联 数据 平 
台 服 务 于 实践 ， 服 务 于 解决 实际 问题 的 特点 。 

其 次 ， 这 些 平台 都 较为 注重 成 果 对 大 众 的 
呈现 与 宣传 。 例 如 敦煌 壁画 叙 词 表 关 联 数据 服 
AV fri SEU) ze uU, KAR T UR) EA. 
知 难度 ， 实 现 了 专业 化 叙 词 表 向 适用 于 大 众 利 


中 心 合作 开发 的 中 国 历代 人 物 传 记 资 料 库 项 目 
(CBDB) , ， 同 样 是 国内 外 研究 中 心 合 作 建立 资 
料 库 的 经 典 实 践 ， 该 平台 能 够 展现 历史 人 物 之 
间 的 各 类 关系 ， 并 形成 特有 的 社会 关系 网 络 ， 
实现 人 物 之 间 隐 性 关系 的 挖掘 与 呈现 中， 在 研 
究 中 国 历史 的 同时 ， 能 够 促进 西方 国家 对 中 国 
传统 文化 的 理解 。 

男 一 方面 是 校外 机 构 与 高 校 的 合作 。 大 多 
数字 人 文 机 构 隶 属于 大 学 ， 以 高 校 图 书馆 依托 
进行 平台 建设 ， 由 高 校 图 书馆 、 档 案 馆 提供 数 
据 资 源 和 人 才 ， 企业、 基金 会 提供 资金 等 。 比 
如 伊利 诺 伊 大 学 香槟 分 校 人 文 、 艺 术 和 社会 科 
学 计算 所 与 亚伯拉罕 -林肯 博物 馆 合 作 开发 的 林 
肯 著 作 数 据 库 ， 该 数据 库 由 伊利 伊 诺 大 学 香槟 
分 校 主导 开发 ， 投 入 人 才 资 源 支持 与 后 续 平台 


用 的 过 渡 外。 上 海 图 书馆 研发 的 中 国家 谱 知 识 
服务 平台 中， 基于 大 量 数据 ， 采 用 时 空 结合 对 
姓氏 、 人 物 及 人 物 间 的 相互 关系 进行 全 景 式 的 
可 视 化 展示 和 统计 分 析 。 由 此 可 知 ， 数 字 人 文 
关联 数据 平台 进行 成 果 呈 现 一 方面 有 助 于 数字 
人 文 研 究 的 推广 ， 提 升 数 字 人 文学 科 影 响 力 ， 
另 一 方面 有 助 于 促进 文化 从 现实 世界 向 数字 空 
间 延 伸 拓 展 ， 丰 富 人 类 的 数字 文明 内 涵 。 
5.2.3. 数据 孤岛 现象 突出 

数字 人 文 关联 数据 平台 数据 资源 的 智慧 性 
主要 体现 在 及 时 性 、 可 获取 性 以 及 可 利用 性 3 
个 方面 。 因 此 需要 形成 动态 的 、 开 放 关 联 的 数 
据 资源 ， 不 断 丰 富 其 内 容 与 形式 。 近 年 来 ， 国 
内 外 对 于 数字 人 文 关联 数据 平台 建设 越 来 越 重 
视 。 但 与 此 同时 ， 新 的 隐患 也 在 形成 。 王 晓 光 
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提出 了 数字 人 文 研 究 中 的 数据 失 秩 现象 ,尤其 
在 中 国 大 陆 ， 这 种 现象 更 为 严重 ， 他 指出 : 数 
字 资 源 建设 的 主体 走向 多 元 化 , 图 书馆 、 博 物 馆 、 
档案 馆 等 相关 研究 机 构 都 投入 了 相当 多 的 资金 
E AJ] cbe, 却 导致 了 无 数 个 更 大 的 “数据 孤岛 ” 
出 现 ， 比 纸 质 文献 时 代 更 严重 中。 这 种 现象 淡 
化 了 领域 学 者 为 平台 建设 所 付出 的 相关 努力 ， 
甚至 可 能 给 人 留 下 一 种 数字 人 文 研究 的 生命 周 
期 很 短暂 的 印象 。 

纵 观 形成 数据 孤岛 现象 的 原因 ， 首 先是 随 
着 研究 的 开展 ， 资 源 数据 量 与 研究 资料 的 范围 
也 在 拓展 。 除 了 传统 的 文献 资源 以 外 ， 其 他 实 
物 、 图 像 、 音 视频 等 资料 都 会 被 列 入 数字 人 文 
学 者 的 研究 范围 内 。 数 字 人 文 领域 基础 资料 种 
类 的 繁杂 容易 造成 相关 人 研究 的 彼此 孤立 。 其 次， 
较 多 平台 管理 者 倾向 于 将 重点 放 在 规划 和 局 动 
新 项 目 上 , 从 而 容易 忽略 对 旧 项 目的 后 续 管理 、 
维护 中 。 随 着 时 间 的 推移 ， 原 有 的 数据 资源 格 
式 可 能 会 与 现 有 的 技术 存在 不 相 兼 容 的 情况 ， 
旧 的 数据 资源 将 无 法 与 新 的 目标 用 户 需 求 匹配 。 
若 不 能 及 时 更 新 现 有 的 技术 方法 及 操作 环境 ， 
反而 一 味 开 展 新 项 目 ， 平 台 资 源 便 很 难保 持 鲜 
活 。 如 何 改善 数据 孤岛 现象 ， 实 现 对 数字 人 文 
智 站 数据 资源 的 统一 表示 ， 已 经 成 为 数字 人 文 
智慧 化 知识 服务 平台 发 展 道路 上 的 重要 议题 。 


Q 数字 人 文 领域 知识 图 谱 研究 的 未 
来 趋势 

综合 近年 来 的 数字 人 文 领域 知识 图 谱 的 人 研 
究 成 果 ， 结 合 目 前 数字 化 技术 的 智慧 化 趋势 ， 
我 们 可 以 观察 到 如 下 发 展 趋势 : 

(1) 多 元 数据 集成 。 数 据 的 长 期 保存 是 数 
字 人 文 领域 知识 图 谱 平 台 非常 重要 的 基础 职能 
之 一 。 与 其 他 领域 相 比 ， 数 字 人 文 领域 中 的 数 
据 相对 来 说 比较 特殊 , 包含 了 语言 、 文 献 、 绘 画 、 
音乐 等 多 种 形式 ， 它 们 的 维度 超越 了 可 被 物理 
上 测量 的 范围 ， 更 加 依赖 于 语义 和 语法 中。 对 
数字 人 文 领域 的 研究 离 不 开 人 文 文献 资料 的 数 
字 化 ， 庞 大 的 数据 资源 在 数字 人 文 领域 具有 非 
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凡 的 价值 ， 而 如 何 处 理 好 这 些 数据 ， 将 其 转换 
为 机 器 可 理解 、 可 处 理 的 资源 至 关 重 要 。 而 数 
字 人 文 研究 只 使 用 以 往 的 数据 资源 是 远 远 不 够 
的 ， 还 需要 大 量 鲜 活 的 、 正 在 被 创造 出 来 的 数 
据 。 因 此 ， 可 以 利用 社会 性 网 络 和 开放 存 取 的 
信息 作为 信息 来 源 ， 将 跨 地 域 、 跨 学 科 、 跨 国 
别 的 联系 变 得 更 加 紧密 , 在 经 过 深度 语义 标注 、 
结构 化 、 形 式 化 和 可 视 化 处 理 后 ， 将 数据 转变 
为 高 级 形式 的 智慧 数据 ， 并 推进 到 更 细 化 的 分 
文 领域 。 

(2) 多 横 态 知识 融合 。 早 期 数字 人 文 领域 
的 多 模 态 知识 融合 更 多 地 针对 不 同 知 识 源 的 各 
类 知识 ， 强 调 知 识 来 源 的 多 样 性 。 未 来 ， 多 模 
态 知 识 融 合 将 进一步 突破 传统 的 时 间 和 空间 限 
制 ， 对 于 不 同 知识 源 的 多 样 化 特征 进行 涵盖 与 
扩展 , 依托 知识 图 谱 智 能 平台 的 数据 整合 能 力 ， 
打通 文本 、 影 像 、 实 体 ( 人 物 、 地 点 、 年代、 地域、 
事件 ) 等 多 维度 语义 资源 ， 为 体系 化 、 语 义 化 、 
系统 化 的 数字 人 文 资源 整理 、 人 研究 提供 能 力 支 
撑 。 此 外 ， 对 于 同一 知识 源 的 不 同 解读 也 构成 
了 数字 人 文 资源 的 不 同 维度 与 层次 ， 从 而 能 够 
更 好 地 满足 数字 人 文 领域 研究 中 深层 次 的 信息 
需求 ， 并 实现 大 数据 环境 下 智能 知识 服务 的 不 
IB BIET o 

(3) 多 学 科 交 叉 应 用 。 数 字 人 文 领域 关联 
数据 平台 构建 的 创新 性 研究 应 用 于 多 种 学 科 领 
域 ， 有 助 于 形成 相互 补充 、 相 互 验证 的 有 机 整 
体 成 果 ， 能 够 将 不 同学 科 之 间 的 距离 缩小 ， 促 
进 学 科 的 融合 。 一 方面 ， 学 科 的 专业 化 程度 不 
断 提 高 ， 内 部 发 展 逐 渐 精 细 化 ， 能 够 更 具体 、 
更 深入 地 涵盖 数字 人 文 领域 内 容 ; 另 一 方面 ， 
学 科 交 融 产 生 新 的 学 科 ， 如 数字 艺术 、 数 字 史 
学 等 。 梁 晨 等 ”” 指出， 数字 技术 或 数据 库 平 台 
还 可 以 是 微观 信息 的 加 速 器 或 对 撞 机 ， 并 在 数 
据 的 交叉 和 对 撞 过 程 中 呈现 出 各 种 特征 、 趋 势 
和 规律 。 这 些 变化 都 在 逐渐 要 求 领域 内 研究 人 
员 不 断 突破 不 同 专 业 之 间 的 界限 ， 为 数字 人 文 
研究 带 来 新 的 独 有 的 研究 范式 ， 进 一 步 推动 交 
又 学 科 的 稳固 发 展 。 
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@ 结 论 


从 构建 到 为 数字 人 文 研究 提供 基础 设施 支 
持 ， 数 字 人 文 领域 的 知识 图 谱 研 究 经 历 了 不 断 
的 发 展 与 变 草 ， 以 适应 “ 数 智 时 代 ” 传 统 文献 
资源 向 智慧 数据 资源 的 转型 。 目 前 ， 数 字 人 文 
领域 知识 图 谱 已 经 能 够 较 好 地 提供 知识 发 现 和 
推理 功能 ， 文 持 多 种 类 型 的 数字 人 文 资源 描述 
与 融合 ， 并 能 够 满足 文化 的 长 期 保存 和 共 建 共 
享 的 需求 。 本 文 以 数字 人 文 领域 国内 外 会 议 、 
期 刊 发 表 的 相关 文献 为 研究 对 象 ， 对 数字 人 文 
领域 的 数据 资源 建设 、 知 识 图 谱 构 建 、 智 能 服 
务 平台 3 个 方面 进行 调研 ， 认 识 到 数字 人 文 领 
域 知 识 图 谱 研究 能 够 为 该 领域 资源 的 数字 化 建 
设 制定 统一 规范 的 方法 参考 ， 并 为 数字 人 文 研 
究 提供 基础 设施 ， 更 好 地 实现 智慧 数据 资源 的 
转型 与 升级 。 在 这 个 过 程 中 ， 新 的 机 遇 、 新 的 
挑战 都 在 不 断 发 生 ， 而 知识 图 谱 作为 人 工 智能 
时 代 一 种 先进 的 知识 组 织 方式 ， 能 够 充分 发 挥 
其 知识 融合 中 介 的 作用 ， 为 “ 数 智 时 代 ” 的 发 
展 提供 源源 不 断 的 动力 ， 并 为 我 国 未 来 的 数字 
人 文 发 展 道路 提供 指引 与 方向 。 
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Knowledge Graph in the Field of Digital Humanities: Research Progress and Future Trends 
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Abstract: [Purpose/significance] This paper conducts a systematic review of the knowledge graph 
research in the field of digital humanities, aiming to provide possible future research directions and open 
research topics. [Method/process]| By taking relevant paper published in domestic and foreign conferences 
and journals as the research objects and using the comprehensive induction method, the theoretical and 
practical development of the knowledge graph in the field of digital humanities was systematically combed. 
Then it explained the related concepts of the knowledge graph in the field of digital humanities. And 
according to the current research hot spots, this paper revealed its research trends from three aspects of the 
data resource construction, key construction technologies and intelligent application platforms. Finally, it 
showed the prospects for future research trends. [Result/conclusion] This paper summarized the future trends 
of the knowledge graph research in the field of digital humanities. In the future, it will show the development 
trends of multi-source data integration, multi-modal knowledge fusion and multi-disciplinary cross- 
application. 
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